5 research outputs found

    Towards Video Transformers for Automatic Human Analysis

    Full text link
    [eng] With the aim of creating artificial systems capable of mirroring the nuanced understanding and interpretative powers inherent to human cognition, this thesis embarks on an exploration of the intersection between human analysis and Video Transformers. The objective is to harness the potential of Transformers, a promising architectural paradigm, to comprehend the intricacies of human interaction, thus paving the way for the development of empathetic and context-aware intelligent systems. In order to do so, we explore the whole Computer Vision pipeline, from data gathering, to deeply analyzing recent developments, through model design and experimentation. Central to this study is the creation of UDIVA, an expansive multi-modal, multi-view dataset capturing dyadic face-to-face human interactions. Comprising 147 participants across 188 sessions, UDIVA integrates audio-visual recordings, heart-rate measurements, personality assessments, socio- demographic metadata, and conversational transcripts, establishing itself as the largest dataset for dyadic human interaction analysis up to this date. This dataset provides a rich context for probing the capabilities of Transformers within complex environments. In order to validate its utility, as well as to elucidate Transformers' ability to assimilate diverse contextual cues, we focus on addressing the challenge of personality regression within interaction scenarios. We first adapt an existing Video Transformer to handle multiple contextual sources and conduct rigorous experimentation. We empirically observe a progressive enhancement in model performance as more context is added, reinforcing the potential of Transformers to decode intricate human dynamics. Building upon these findings, the Dyadformer emerges as a novel architecture, adept at long-range modeling of dyadic interactions. By jointly modeling both participants in the interaction, as well as embedding multi- modal integration into the model itself, the Dyadformer surpasses the baseline and other concurrent approaches, underscoring Transformers' aptitude in deciphering multifaceted, noisy, and challenging tasks such as the analysis of human personality in interaction. Nonetheless, these experiments unveil the ubiquitous challenges when training Transformers, particularly in managing overfitting due to their demand for extensive datasets. Consequently, we conclude this thesis with a comprehensive investigation into Video Transformers, analyzing topics ranging from architectural designs and training strategies, to input embedding and tokenization, traversing through multi-modality and specific applications. Across these, we highlight trends which optimally harness spatio-temporal representations that handle video redundancy and high dimensionality. A culminating performance comparison is conducted in the realm of video action classification, spotlighting strategies that exhibit superior efficacy, even compared to traditional CNN-based methods.[cat] Aquesta tesi busca crear sistemes artificials que reflecteixin les habilitats de comprensió i interpretació humanes a través de l'ús de Transformers per a vídeo. L'objectiu és utilitzar aquestes arquitectures per comprendre millor la interacció humana i desenvolupar sistemes intel·ligents i conscients de l'entorn. Això implica explorar àmplies àrees de la Visió per Computador, des de la recopilació de dades fins a l'anàlisi de l'estat de l'art i la prova experimental d'aquests models. Una part essencial d'aquest estudi és la creació d'UDIVA, un ampli conjunt de dades multimodal i multivista que enregistra interaccions humanes cara a cara. Amb 147 participants i 188 sessions, UDIVA inclou contingut audiovisual, freqüència cardíaca, perfils de personalitat, dades sociodemogràfiques i transcripcions de les converses. És el conjunt de dades més gran conegut per a l'anàlisi de la interacció humana diàdica i proporciona un context ric per a l'estudi de les capacitats dels Transformers en entorns complexos. Per tal de validar la seva utilitat i les habilitats dels Transformers, ens centrem en la regressió de la personalitat. Inicialment, adaptem un Transformer de vídeo per integrar diverses fonts de context. Mitjançant experiments exhaustius, observem millores progressives en els resultats amb la inclusió de més context, confirmant la capacitat dels Transformers. Motivats per aquests resultats, desenvolupem el Dyadformer, una arquitectura per interaccions diàdiques de llarga duració. Aquesta nova arquitectura considera simultàniament els dos participants en la interacció i incorpora la multimodalitat en un sol model. El Dyadformer supera la nostra proposta inicial i altres treballs similars, destacant la capacitat dels Transformers per abordar tasques complexes. No obstant això, aquestos experiments revelen reptes d'entrenament dels Transformers, com el sobreajustament, per la seva necessitat de grans conjunts de dades. La tesi conclou amb una anàlisi profunda dels Transformers per a vídeo, incloent dissenys arquitectònics, estratègies d'entrenament, preprocessament de vídeos, tokenització i multimodalitat. S'identifiquen tendències per gestionar la redundància i alta dimensionalitat de vídeos i es realitza una comparació de rendiment en la classificació d'accions a vídeo, destacant estratègies d'eficàcia superior als mètodes tradicionals basats en convolucions

    A Comprehensive survey on deep future frame video prediction

    Get PDF
    El present projecte planteja l'estudi comprensiu i extens per a la tasca de predicció de fotogrames donada una seqüència de vídeo. Mitjançant l'anàlisi de l'estat de l'art en generació d'imatges, xarxes convolucionals i adversàries l'objectiu és establir les forces i utilitats d'aquesta tasca

    Desarrollo de un sistema de análisis de sentimiento sobre Twitter

    Full text link
    [ES] Twitter se ha convertido en una de las plataformas on-line más utilizadas para expresar opiniones e ideas. Es debido a esta razón que resulta una fuente ideal de información de la que extraer estadísticas sociales. Este proyecto pretende analizar esta información centrándose en el estudio de la polaridad. El análisis de sentimientos sobre Twitter busca establecer la subjetividad de las opiniones expresadas sobre esta plataforma. El objetivo del proyecto es el desarrollo de una aplicación web basada en Django. Esta debe agrupar diversas herramientas de clasificación que generen estadísticas de polaridad a partir de un conjunto de tuits. Además, la aplicación almacenará un histórico con el que mostrar la evolución de los resultados. Por otra parte, se ha desarrollado un sistema de resumen automático basado en la extracción de los tuits más representativos para una búsqueda concreta. Para ello se ha implementado un sistema basado en el Análisis Semántico Latente el cual también tiene en cuenta la popularidad de un tuit a la hora de escogerlo para el resumen. Con el objetivo de probar este sistema se ha realizado un proceso de experimentación que abarca desde la elaboración de un corpus de tuits puntuados manualmente por relevancia, hasta el estudio de las diferentes características de Twitter que hacen que un tuit se considere popular.[EN] Twitter has become one of the most popular online platforms used to express opinions and ideas. For this reason, Twitter is a great source of information which can be used to produce social statistics. This project is focused on one specific aspect of the analysis of this information: polarity. The goal of Sentiment analysis on Twitter is finding the subjectivity within the opinions expressed in this platform. The aim of the project is developing a Django based web application. It should gather different classification tools in order to obtain polarity statistics out of a tweet set. Also, the application will store the outcome in order to show evolution of the results. Moreover, an automatic summarization tool has been also developed. It’s based on the extraction of the most relevant tweets for a specific query. In order to do so it has been implemented a system based on Latent Semantic Analysis. This system also considers the tweets’ popularity when producing the summary. The system was tested by manually scoring a tweet corpus by relevance and studying the different Twitter features that makes a tweet popular.Selva Castelló, J. (2015). Desarrollo de un sistema de análisis de sentimiento sobre Twitter. http://hdl.handle.net/10251/55471.TFG

    Adelante / Endavant

    Get PDF
    Séptimo desafío por la erradicación de la violencia contra las mujeres del Institut Universitari d’Estudis Feministes i de Gènere "Purificación Escribano" de la Universitat Jaume
    corecore